Sprachsynthese

Schema für den „Vocoder“ von Homer Dudley (1940)

Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme. Durch Text-to-Speech (TTS) (oder Vorleseautomat) wird Fließtext in eine akustische Sprachausgabe überführt.

Genügend Rechenleistung vorausgesetzt, verwendet man heute sog. Tiefe Neuronale Netze (DNN), die man mit vielen Stunden hochwertiger Sprachaufnahme anlernt, englisch Deep learning speech synthesis.

Bis Mitte der 2010er-Jahre verwendete man den analytischen Ansatz. Dabei wird der Text über mehrere Zwischenstufen zu Sprache gewandelt, diese sind meist: Eingangstext, Lautschrift, Phoneme, Aneinanderstellung von aufgenommenen oder synthetisierten Diphonen. Ein besonderes Problem ist die Erzeugung einer natürlichen Sprachmelodie (Prosodie).

Die Herkunft der Diphone unterscheidet grundsätzlich zwischen zwei Methoden. Das Signal kann durch die sogenannte physiologische (artikulatorische) Modellierung vollständig im Rechner erzeugt werden. Oder aber es wird auf Sprachaufnahmen (Samples) zurückgegriffen, was teilweise auch als Signalmodellierung bezeichnet wird.

Während die geschichtlich ersten Systeme auf Formantsynthesen beruhten, basierten die bisher industriell eingesetzten Systeme vorwiegend auf Signalmodellierung.


© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search